对象目标导航要求机器人在以前看不见的环境中找到并导航到目标对象类的实例。我们的框架会随着时间的推移逐步构建环境的语义图,然后根据语义映射重复选择一个长期目标(“ where to Go”)以找到目标对象实例。长期目标选择被称为基于视觉的深度强化学习问题。具体而言,对编码器网络进行了训练,可以从语义图中提取高级功能并选择长期目标。此外,我们还将数据增强和Q功能正则化合并,以使长期目标选择更有效。我们在AI栖息地3D模拟环境中使用照片现实的Gibson基准数据集进行了实验结果,以证明与最先进的数据驱动基线相比,标准措施的性能改善。
translated by 谷歌翻译